本文解决了逆增强学习(IRL)的问题 - 从观察其行为中推断出代理的奖励功能。 IRL可以为学徒学习提供可概括和紧凑的代表,并能够准确推断人的偏好以帮助他们。 %并提供更准确的预测。但是,有效的IRL具有挑战性,因为许多奖励功能可以与观察到的行为兼容。我们专注于如何利用先前的强化学习(RL)经验,以使学习这些偏好更快,更高效。我们提出了IRL算法基础(通过样本中的连续功能意图推断行为获取行为),该算法利用多任务RL预培训和后继功能,使代理商可以为跨越可能的目标建立强大的基础,从而跨越可能的目标。给定的域。当仅接触一些专家演示以优化新颖目标时,代理商会使用其基础快速有效地推断奖励功能。我们的实验表明,我们的方法非常有效地推断和优化显示出奖励功能,从而准确地从少于100个轨迹中推断出奖励功能。
translated by 谷歌翻译
全身追踪器用于监视和安全目的,例如人跟踪机器人。在中东,统一的人群环境是挑战最新跟踪器的常态。尽管过去文献中记录的跟踪器技术有了很大的改进,但这些跟踪器尚未使用捕获这些环境的数据集进行了培训。在这项工作中,我们在统一的人群环境中开发了一个带有一个特定目标的注释数据集。该数据集是在四种不同的情况下生成的,在四种不同的情况下,目标主要是与人群一起移动,有时会与它们阻塞,而其他时候,相机的目标视图在短时间内被人群阻止。注释后,它用于评估和微调最新的跟踪器。我们的结果表明,与初始预训练的跟踪器相比,基于两个定量评估指标的微调跟踪器在评估数据集上的性能更好。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
在手写文件中指定实体执行的相关信息的提取仍然是一个具有挑战性的任务。与通常将文本转录和命名实体识别的传统信息提取方法与单独的后续任务不同,我们提出了基于端到端的变换器的方法,共同执行这两个任务。拟议的方法在段落水平上运作,带来了两个主要福利。首先,它允许模型避免由于线分割而无法恢复的早期误差。其次,它允许模型利用更大的双维上下文信息来识别语义类别,达到更高的最终预测精度。我们还探讨了不同的培训方案,以表明他们对性能的影响,我们证明了两级学习策略可以使模型达到更高的最终预测精度。据我们所知,这项工作提出了一种采用传感器网络,用于在手写文档中指定实体识别的变压器网络。我们在ICDAR 2017信息提取竞争中实现了新的最先进的性能,即使建议的技术不使用任何词典,语言建模或后处理,即使完整的任务也可以实现新的最先进的表现。
translated by 谷歌翻译